1 GDPR 원문

KISA GDPR 대응지원 센터 웹사이트에 가면 자료실: GDPR 조문을 국문과 영문으로 번역한 PDF 파일이 존재한다. 또한, General Data Protection Regulation (GDPR) 웹사이트에서 조문(Article)별로 검색이 편리하게 정리되어 있다.

1.1 영문

1.2 국문

1.3 국영문 비교

2 데이터셋 1

GDPR 벌금 데이터셋은 TidyTuesday, “rfordatascience/tidytuesday” GitHub 저장소에 2020-04-21 기준 저장되어 있다. 추가로 최신 데이터가 필요한 경우 Roel’s R-tefacts (April 8, 2020), “Scraping Gdpr Fines - Into the DOM with a flavour of regex” 블로그를 참조하여 데이터를 크롤링한다.

3 데이터 정제 2

크롤링된 데이터에 일부 문제가 있어 이를 바로잡는다.

3.2 Article 변형

Article 관련 사항을 체계적으로 정비한다. articles 칼럼을 추출하여 이를 정규표현식으로 정제한다.

# A tibble: 180 x 9
      id country  price authority date       controller type  ttl_articles
   <int> <chr>    <int> <chr>     <date>     <chr>      <chr>        <int>
 1     1 Poland    2000 "Polish ~ 2019-10-18 Polish Ma~ Non-~            1
 2     2 Romania   2500 "Romania~ 2019-10-17 UTTIS IND~ Info~            4
 3     3 Spain    60000 "Spanish~ 2019-10-16 Xfera Mov~ Non-~            2
 4     4 Spain     8000 "Spanish~ 2019-10-16 Iberdrola~ Fail~            1
 5     5 Romania 150000 "Romania~ 2019-10-09 Raiffeise~ Fail~            1
 6     6 Romania  20000 "Romania~ 2019-10-09 Vreau Cre~ Fail~            2
 7     7 Greece  200000 "Helleni~ 2019-10-07 Telecommu~ Fail~            2
 8     9 Spain    30000 "Spanish~ 2019-10-01 Vueling A~ Non-~            2
 9    10 Romania   9000 "Romania~ 2019-09-26 Inteligo ~ Non-~            2
10    11 Germany 195407 "Data Pr~ 2019-09-19 Delivery ~ Non-~            3
# ... with 170 more rows, and 1 more variable: articles <list>

4 탐색적 데이터 분석

GDPR로 인해 부과된 벌금에 대한 사항이 중요 정보별로 준비되어 있어 관심 사항별로 살펴보자.

4.1 국가별 벌금

국가별로 벌금부과 건수와 총금액을 합산하여 표를 만들어 살펴본다.

국가별로 벌금부과 건수와 총금액을 합산된 정보를 이용하여 두 변수간의 관계를 산점도를 그려 시각화한다. ggimg 팩키지에 svg 지원이 없다보니 이를 우회하는 방법으로 .svg 파일을 다운로드 받아 .png 파일로 모두 변환시키고 나서 이를 가져와서 작업한다.

4.2 조항(Article)별

국가별로 벌금부과 건수와 총금액을 합산된 정보를 이용했다면 이번에는 조항별로 살펴보자.

마찬가지 방식으로 벌금부과 건수와 총금액을 산점도를 그려 관계를 살펴보자.